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摘 要 : 


[目的 /意义 ] 创新 性 是 对 学 术 论文 质量 最 基本 的 要 求 ,是 学 术 论文 的 灵魂 ,是 学 术 论文 评价 的 核心 。 知 识 元 是 学 术 


论文 基本 组 成 单元 。 基 于 知识 元 理论 和 机 器 学 习 相 关 理 论 与 算法 ,从 学 术 论 文 内 容 层 面 研究 计算 机 如 何 智 能 化 地 

进行 创新 性 评价 及 其 实现 过 程 与 方法 。[ 方 法 /过 程 ] 首先 ,构建 学 术 论 文 的 研究 问题 ,理论 方法 结论 4 个 知识 元 本 

体 , 接 着 提出 基于 知识 元 的 学 术 论 文 创新 性 判断 模型 。 其 次 ,根据 学 术 论 文 研究 特点 ,构建 理论 与 方法 机 器 分 类 模型 及 

知识 元 的 抽取 规则 与 抽取 方法 ,建立 规则 库 和 知识 语料库 。 最 后 ,基于 语义 相似 度 计算 方法 ,根据 判断 规则 和 相关 权重 

Te 对 学 术 论文 4 个 维度 的 创新 性 进行 评分 。[ 结果 /结论 ] 基 于 知识 元 抽取 的 学 术 论 文 创 新 性 评分 系统 的 实证 结果 表明 ,该 
之 智能 化 评价 方法 具有 一 定 的 可 行 性 ,可 为 学 术 论文 内 容 创 新 性 智能 化 评价 系统 的 最 终 实 现 提 供 方法 借鉴 。 
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奢 写 知识 创新 的 重要 组 成 部 分 ,学 术 论文 的 质量 和 数 
昌 征 衡量 一 个 国家 创新 能 力 与 活力 的 重要 标志 。 学 术 
下 评价 是 知识 创新 能 力 评 价 的 基础 与 重要 内 容 , 是 
国家 综合 创新 能 力 测度 体系 的 重要 指标 之 一 。 学 术 论 
文 评价 的 核心 在 于 对 学 术 论 文 质量 .学 术 价值 和 学 术 
影 啊 力 的 评价 。 当 前 ,学 术 论 文 发 表 前 评价 主要 通过 
专家 匿名 评审 方式 进行 ,这 种 评审 方式 受 专家 自身 学 
术 水 平和 学 科 领 域 方向 等 限制 ,具有 一 定 的 局 限 性 ,可 
能 使 一 些 好 的 成 果 被 遗漏 或 迟滞 发 表 , 一 些 不 好 的 成 
果 则 发 表 在 有 影响 的 期 刊 上 ,从 而 给 国家 综合 创新 能 
力 评价 带 来 负 向 影响 。 知 识 管理 .大 数据 及 人 工 智能 
技术 的 发 展 为 克服 学 术 论 文 评审 商 端 提供 了 新 的 可 能 
性 。 同 时 ,由 于 学 术 论 文中 的 知识 元 不 仅 可 以 用 来 表 
达 、 存 储 、 检 索 和 利用 知识 ,还 可 以 用 来 描述 知识 的 发 
展 脉络 ,进行 知识 发 现 。 故 本 文 尝试 基于 知识 元 理论 ， 
借助 大 数据 及 人 工 智能 技术 ,研究 学 术 论文 创新 性 知 
能 化 评价 的 理论 与 方法 。 


c 


1 _ 学术 论文 创新 性 评价 概述 


创新 性 是 对 学 术 论 文 质量 最 基本 的 要 求 ,是 学 术 
论文 的 灵魂 ,是 学 术 论文 评价 的 核心 。 学 术 论 文 的 创 
新 性 评价 包含 多 个 维度 ,从 内 容 来 看 ,包括 观点 的 创 
新 , 即 在 某 一 领域 提出 了 他 人 所 不 曾 提出 的 观点 或 研 
究 问题 ;学 术 理论 创新 , 即 发 现 了 新 现象 或 揭示 了 新 规 
律 ,或 者 是 提出 了 新 的 理论 ;结构 或 方法 的 创新 , 即 在 已 
有 研究 的 基础 上 提出 加 新 的 视角 或 者 研究 方法 ,或 对 现 
有 的 方法 进行 了 改进 、 完 善 ,或 者 利用 现 有 的 方法 解决 
应 用 领域 中 存在 的 新 问题 ;结果 结论 创新 ,结果 结论 创 
新 伴随 着 理论 创新 和 方法 创新 , 指 在 前 3 个 创新 基础 
上 ,获得 了 与 原 有 成 果 不 同 的 结果 ,得 出 了 不 同 的 结论 。 

从 创新 程度 方面 来 看 , 陈 建 青 … 将 创新 程度 划分 
为 开创 性 独创 性 和 改进 性 3 个 层次 。 其 中 开创 性 的 
研究 成 果 是 指 在 国内 外 某 个 专业 学 科 或 领域 所 做 的 具 
有 深远 影响 的 .具有 全 局 性 、 前 脆性 、 战 略 性 、 突 破 性 、 
颠覆 性 的 创新 成 果 ,是 最 具 创 新 性 的 成 果 ; 独 创 性 的 研 
究 成 果 是 指 在 某 个 已 有 专业 领域 提出 某 项 新 的 课题 并 
做 出 具有 原始 创新 或 独立 知识 产权 的 研究 成 果 ; 改 进 
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性 的 研究 成 果 指 在 已 有 研究 课题 .研究 对 象 及 其 研究 
成 果 的 基础 上 ,做 进一步 的 补充 ,改进 或 完善 性 的 研究 
工作 。 创 新 是 有 层次 性 的 ,层次 最 高 的 是 开创 性 创 
新 ,其 次 是 阶段 性 创新 ,第 三 是 应 用 性 创新 。 从 国外 权 
威 学 术 期 刊 的 界定 看 ,Nature 认为 创新 的 科研 成 果 应 
具备 新 颖 性 ,引信 注意 ,而 且 该 项 研究 在 该 领域 之 外 还 
具有 广泛 的 意义 。Science 则 认为 创新 是 指 对 自然 或 理 
论 提出 新 见解 ,而 不 是 对 已 有 研究 结论 的 再 次 论证 。 
关于 创新 性 的 评价 方法 ,目前 国际 学 术 界 最 为 认可 
的 就 是 同行 评议 中 ,引文 分 析 也 是 当前 使 用 得 较 多 的 一 
种 方法 。 如 文献 计量 领域 的 学 者 上 认为 ,论文 具有 高 创 
新 力 特点 时 ,该 论文 更 有 可 能 成 为 高 被 引 论文 。 但 同行 
评议 和 基于 引文 的 文献 计量 分 析 这 两 种 方法 在 评价 学 
特色 文 创新 性 时 都 存在 一 定 的 局 限 性 。 同 行 评议 的 局 
限 尾 主要 表现 在 :GD 严重 依赖 评审 专家 的 主观 判断 , 评 
需 你 准 不 一 。@ 选 择 有 资格 的 同行 范围 很 窄 ,评审 专家 
乡 踪 评价 的 可 信和 度 难 以 确定 。@ 难 以 保证 匿名 评审 的 
全 本 性 。 同 时 ,同行 评议 作为 定性 评价 方法 还 存在 主观 
随 章 、 低 效 性 .评价 过 程 隐蔽 结果 难以 复 证 和 监督 等 抽 
3。 而 量化 评价 则 因 学 科 的 不 同 其 普遍 适用 性 较为 
应 用 计量 学 来 评价 学 术 成 果 还 可 能 误导 学 者 。 
中 当前 ,基于 同行 评议 的 学 术 论 文 发 表 前 评价 与 基 
手 交 献计 量 ( 涵 盖 补 充 计 量 ) 的 学 术 论文 发 表 后 评价 
所 莽 有 的 缺陷 没有 得 到 根本 的 解决 。 对 同行 评议 的 缺 
隆 通 行 改进 的 研究 ,如 开放 式 同行 评议 ” ,同行 评议 专 
家 闭 选 问题 研究 .对 同行 评议 表单 进行 量化 处 理 ” 
等 3 吾 然 在 一 定 程度 上 解决 了 如 公正 性 要 求 等 方面 的 
缺 阿 , 但 无 法 解决 同行 评议 中 基于 专家 主观 判断 的 问 
题 ; 对 于 以 文献 计量 为 基础 的 学 术 论文 影响 力 评价 虽 
然 经 过 多 次 改进 ,如 补充 计量 指标 Altmetrics 对 引用 的 
评价 ,但 始终 无 法 从 学 术 内 容 层面 解决 影响 力 问题 。 
研究 人 员 因 此 将 研究 方向 转向 研究 学 术 论 文 内 容 
本 身 ,通过 对 学 术 论文 的 内 容 分 析 与 挖 气 将 学 术 论文 
中 的 创新 点 进行 识别 并 构建 学 术 论文 创新 力 测度 指标 
来 评价 学 术 论文 的 创新 性 。 目 前 ,已 经 有 一 些 相关 研 
究 。 如 沈阳 "中 从 关键 词 角度 对 论文 创新 度 进行 评价 ， 
利用 统计 不 同时 期 的 关键 词 频 度 的 方法 ,对 已 有 的 关 
键 词 进行 提取 ,该 研究 认为 词 频 越 高 ,时 间 越 长 ,用 户 
评价 越 低 , 则 创新 度 越 低 ; 贺 婉 莹 "从 创新 吸收 创新 
扩散 的 角度 从 多 个 维度 对 论文 创新 力 进行 评价 ,虽然 
取得 了 一 定 的 效果 ,但 对 学 术 论文 本 身 的 内 容 因素 关 
注 仍 较 少 。 索 传 军 等 “利用 学 术 论文 中 知识 元 转移 
的 数量 测度 单 篇 学 术 论 文 的 老化 度 和 创新 度 ; 杨 京 


等 “基于 研究 主题 对 学 术 论 文 的 创新 力 进 行 评价 , 认 
为 如 果 某 篇 学 术 论 文 的 研究 主题 和 当前 的 科学 研究 前 
沿 主题 相 契 合 , 同 时 发 表 在 影响 因子 较 高 的 期 刊 上 , 那 
么 这 篇 论文 即 具有 和 较 高 的 创新 力 。 阮 光 册 "采用 
Doc2Vec 方法 对 文本 内 容 进行 向 量 计算 与 相似 度 计算 
以 生成 热点 选 题 论 文集 ,在 此 基础 上 再 利用 主题 模型 
和 聚 类 算法 进行 主题 识别 与 挖掘 ,在 语义 特征 的 识别 
上 获得 了 更 优 的 效果 ,可 以 用 来 对 学 术 论文 主题 新 颖 
性 和 创新 性 进行 识别 和 判断 ,是 本 文 研究 内 容 创新 性 
智能 化 评价 的 重要 基础 。 


2 学 术 论文 智能 化 评价 概念 与 过 程 


评价 是 指 在 一 定 的 标准 下 ,对 评价 对 象 进行 比较 
分 析 , 使 用 户 更 好 地 认识 评价 对 象 ,并 指导 用 户 做 出 决 
策 "” 。 智 能 化 评价 是 将 人 工 智 能 的 理论 方法、 技术 
运用 于 评价 对 象 并 对 评价 对 象 进行 认识 的 过 程 。 学 术 
论文 智能 化 评价 是 指 在 学 术 论 文 评价 过 程 中 ,判断 论文 
质量 好 坏 的 若干 关键 指标 可 以 由 人 工 智 能 技术 进行 判 
断 , 或 者 说 由 计算 机 程序 自动 完成 ,并 给 出 评价 结果 的 
评价 过 程 。 通 过 智能 化 评价 ,可 以 解决 或 部 分 解决 以 往 
以 同行 评议 为 主要 评价 方法 的 学 者 主观 判断 的 弊端 。 

学 术 论 文智 能 化 评价 的 相关 理论 与 方法 ,最 初 适应 
于 学 术 论 文 发 表 后 进入 出 版 传播 平台 即 正式 学 术 交 流 
领域 后 所 产生 的 学 术 影 响 (如 基于 海量 数据 从 计量 指标 
角度 判断 学 术 论 文 影响 力 等 )。 随 着 大 数据 技术 发 展 ， 
尤其 是 知识 表示 、 知 识 推 理 \ 文 本 识别 与 分 析 、 知 识 发 现 
等 技术 与 机 器 深度 学 习 等 人 工 智 能 技术 的 发 展 ,使 得 计 
算 机 智能 地 对 未 进入 传播 领域 ( 或 未 进入 正式 学 术 交 流 
领域 ) 的 单 篇 学 术 论 文 ( 学 术 手 稿 或 稿件 ) 的 质量 进行 判 
断 与 评价 成 为 可 能 。 智 能 技术 运用 于 学 术 论 文 发 表 前 的 
评价 是 一 个 发 展 的 过 程 ,是 随 着 技术 与 方法 进步 逐步 渗透 
到 学 术 论 文 评价 的 各 个 流程 "或 主要 的 内 容 环 节 的 "1。 
评价 的 因素 包括 评价 的 目的 ,评价 的 主体 评价 的 客体 、 评 
价 的 指标 体系 .评价 的 标准 .评价 的 模型 和 评价 的 结果 。 

根据 智能 化 技术 实现 评价 的 自动 化 程度 或 参与 传 
统 评 审 流程 的 程度 ,学 术 论 文智 能 化 评价 可 以 分 为 初 
期 的 计算 机 辅助 评价 , 主要 对 学 术 论文 的 外 在 指标 进 
行 判断 和 评价 ;中 期 的 主要 依靠 计算 机 进行 内 容 层 面 
的 识别 与 评价 ,主要 对 学 术 论 文 内 容 创新 性 等 的 评价 ; 
成 熟 期 的 完全 由 计算 机 智能 地 完成 的 评价 (计算 机 自 
动 给 出 主要 的 评审 语 )3 个 阶段 。 其 中 ,判断 学 术 论 文 
外 在 因素 的 计算 机 辅助 评价 的 相关 技术 已 较 成 熟 ; 判 
断 学 术 论 文 内 容 本 身 的 技术 正 是 当前 研究 的 热点 ,也 
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是 本 文 主要 研究 的 内 容 ; 以 计算 机 自动 给 出 评审 语 的 
完全 智能 化 评价 是 未 来 的 发 展 方向 。 

智能 化 评价 过 程 是 使 用 智能 化 系统 对 评价 对 象 进 
行 认识 的 过 程 ,通过 模型 的 自 组 织 、 自 学 习 、 自 适应 \ 自 
识别 、 自 协调 等 功能 成 为 智能 化 综合 评价 模型 ,可 以 更 
好 地 为 用 户 提 供 决策 服务 。 对 学 术 论 文 内 容 进行 智能 
化 评价 过 程 包括 3 个 方面 :一 是 内 容 的 智能 化 识别 ;二 
是 内 容 的 智能 化 抽取 ;三 是 内 容 的 智能 化 比 对 。 智 能 
化 识别 是 根据 学 术 论文 的 内 容 特征 ,依据 智能 识别 方 
法 进行 识别 ,如 识别 研究 主题 等 ;智能 化 抽取 是 在 识别 
的 基础 上 ,根据 描述 规则 进行 内 容 抽取 ;智能 化 比 对 是 
评价 的 重要 一 步 , 是 基于 语义 相似 度 计算 算法 与 技术 ， 
将 识别 及 抽取 的 内 容 进行 语义 相似 度 计算 和 比 对 ,再 
利用 机 器 学 习 自 动 进行 特征 分 类 ,判断 相关 内 容 的 新 疾 


性 s 型 新 性 等 。 学 术 论 文智 能 化 评价 过 程 如 图 1 所 示 : 


[| 


”智能 化 识别 

学 术 论文 内 容 | | 知 能 化 抽取 

智能 化 评价 | “| 

EREE | > 机 器 学 习 、 深 度 学 习 
一 | 智能 化 比 对 


图 1 学 术 论 文 内 容 智 能 化 评价 过 程 


3G 如 识 元 理论 


3, 它 知识 元 概念 

Ps 知识 元 是 表示 ,控制 管理 和 操作 知识 的 基本 单元 ， 
是 涵 了 解决 以 文献 为 单位 的 知识 组 织 方式 所 包含 的 知 
识 再 容 太 少 而 无 法 满足 用 户 增长 的 知识 需求 而 逐渐 发 
REDKE 。20 世纪 70 年 代 后 期 ,美国 情报 学 家 弗 拉 
基 米 尔 . 斯 拉 麦 卡 指 出 将 知识 的 控制 单位 由 文献 表层 
深入 到 文献 内 部 知识 元 ,文献 中 的 知识 元 及 其 链接 将 产 
生 极 大 的 知识 增值 ,从 而 提高 知识 利用 和 知识 创造 的 效 
率 '” 1 。 英 国情 报 学 家 B C. Brookes 随后 也 提出 利用 “ 认 
知 观点 "地 图 的 概念 来 连接 .表征 知识 内 容 和 知识 创 
造 " ,同时 将 文献 网 演变 为 知识 元 关联 的 概念 网 ,使 知 
识 体系 由 外 部 宏观 结构 演变 为 内 部 微观 结构 2 。 知 识 
元 不 仅 可 以 用 来 表达 .存储 .检索 和 利用 知识 ,知识 元 之 
间 的 链接 关系 还 可 以 用 来 描述 知识 的 发 展 脉络 ,进行 知 
识 发 现 ,并 预测 未 来 发 展 方向 。 知 识 元 概念 在 不 同学 科 
领域 和 不 同时 期 有 不 同 的 表现 形态 ,如 教育 学 领域 的 知 
识 元 是 指 知识 体系 的 “知识 点 ", 人 工 智能 领域 的 知识 元 
则 指 “ 语 义 网 ”, 图 情 领 域 的 知识 元 则 表示 文档 中 的 基本 
概念 。 温 有 奎 认为 知识 元 是 构成 知识 结构 的 基 元 ,是 
知识 分 解 成 可 独立 使 用 的 最 小 单位 ,可 用 来 表达 一 个 完 


整 的 知识 内 容 或 概念 ,是 一 组 包含 了 某 些 知识 成 分 的 信 
息 单元 集合 ” 。 根 据 知识 元 是 基本 单元 的 界定 ,利用 知 
识 元 可 以 有 效 解 决 :知识 的 自由 切 分 与 存 取 ;@@ 知 
识 的 自由 组 织 与 检索 ;@@ 知 识 的 自由 组 合 与 检索 ;(@ 知 
识 的 准确 计量 与 评价 。 

3.2 ”知识 元 描述 与 抽取 

对 知识 元 的 描述 有 描述 模型 和 描述 规则 两 种 。 知 
识 元 的 描述 模型 '" 是 对 知识 元 的 语义 内 容 和 结构 进 
行 揭示 的 一 种 抽象 表示 ,是 知识 元 表示 的 方法 ,其 目的 
是 促进 知识 元 的 管理 与 利用 。 知 识 元 的 描述 规则 是 为 
了 对 知识 元 进行 识别 和 抽取 ,是 根据 知识 元 的 描述 模 
型 和 特征 分 析 而 制定 或 总 结 的 知识 元 的 表示 总 和 。 知 
识 元 描述 模型 一 般 包括 属性 、 内 容 和 关系 3 个 方面 , 索 
传 军 等 ”用 语义 三 元 组 描述 创新 知识 元 ,认为 每 一 个 
创新 知识 元 都 可 以 分 解 为 至 少 1 个 主语 .谓语 、 宾 语 形 
式 , 这 些 语 义 三 元 组 由 于 描述 的 是 同一 主题 下 的 知识 内 
容 , 因 而 存在 一 定 的 逻辑 关系 。 圳 名 依 等 提出 一 种 基 
于 本 体 的 知识 元 表示 方法 。 本 体 是 对 某 一 领域 中 的 术 
语 及 术语 间 关 系 的 规范 说 明 ,提供 对 领域 知识 的 共同 理 
解 和 描述 ,用 于 共享 .交流 和 复 用 ,由 经 过 精确 定义 的 概 
念 及 概念 间 的 关系 组 成 。 其 中 知识 元 本 体 包 含 Creator, 
Knowledge Element, Knowledge Element Abstract , Knowl- 
edge Element Description 和 History 等 5 2S, Creator 用 于 
描述 创建 者 ,Knowledge Element. 用 于 描述 不 同 的 知识 单 
JÙ ,Knowledge Element Abstract 用 于 表示 知识 元 抽象 体 ， 
Knowledge Element Description 用 于 表示 知识 元 描述 体 ， 
History 用 于 记录 知识 元 的 演进 发 展 过 程 。 

从 数字 资源 中 抽取 知识 元 是 知识 元 应 用 的 基础 ， 
当前 学 者 所 提出 的 方法 大 致 可 分 为 基于 文本 结构 的 抽 
取 方 法 与 基于 规则 的 抽取 方法 两 种 类 型 。 基 于 文本 结 
构 的 抽取 方法 如 姜 永 常 ” 提 出 的 基于 物理 结构 和 让 
辑 结 构 的 抽取 方法 ; 周 宁 等 根据 事先 给 定 的 结构 约束 
来 抽取 文本 片段 ; 方 龙 等 ”根据 学 术 文本 的 功能 结构 
进行 识别 。 基 于 规则 的 抽取 方法 如 王 忠 义 等 ”提出 
基于 规则 的 知识 元 抽取 方法 ,首先 建立 了 概念 知识 元 、 
事实 知识 元 .数值 知识 元 方法 知识 元 和 关系 型 知识 元 
的 描述 规则 ,并 对 各 知识 元 的 特征 词 进 行 详 细 描 述 , 然 
后 基于 描述 规则 对 知识 元 进行 识别 和 抽取 。 

本 文 基于 知识 元 的 相关 研究 ,构建 学 术 论 文 知识 
元 本 体 ,根据 知识 元 本 体 的 描述 规则 抽取 学 术 论 文 的 
知识 元 ,利用 知识 元 包含 的 语义 信息 与 学 术 论 文 的 语 
义 信息 进行 语义 相似 度 计算 ,根据 相似 度 计算 结果 ,对 
其 创新 性 进行 评价 。 
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4 基于 知识 元 的 学 术 论 文 创 新 性 评价 过 程 


如 上 文 所 述 ,学 术 论文 内 容 创新 性 主要 在 于 新 论 
点 和 新 论据 ,新 论点 包括 新 间 题 ,新 理论 .新 结论 ,新 论 
据 包 括 新 方法 和 新 数据 。 学 术 论文 成 果 应 在 研究 问 
题 ,理论 .方法 结论 等 微观 方面 体现 其 创新 性 。 因 此 ， 
本 文 将 学 术 论文 内 容 创新 性 评价 划分 为 4 个 维度 一 一 
研究 问题 创新 ,理论 创新 .方法 创新 及 结论 创新 。 

研究 问题 创新 (也 可 称 作 研 究 主 题 创 新 或 研究 先 
题 创 新 ) 是 指 研究 者 提出 一 个 新 的 研究 问题 ,或 新 的 研 
究 主题 ,或 新 的 观点 ,或 新 的 研究 视角 ,从 研究 问题 可 
以 初步 判断 研究 的 价值 和 创新 性 。 理 论 创新 是 指 研究 
者 在 社会 实践 活动 中 ,对 出 现 的 问题 ,作出 新 的 理性 分 
棉 利 解答 ,对 认识 对 象 或 实践 对 象 的 本 质 . 规 律 和 发 展 
变 和 的 趋势 作 新 的 揭示 和 预见 ,对 人 类 历史 经 验 和 现实 
经 验 作 新 的 理性 升华 ,是 对 原 有 理论 体系 或 框架 的 新 突 
外 对 原 有 理论 的 新 修正 .新 发 展 ,对 未 知 领域 的 新 探 
索 司 方 法 创新 是 指 对 已 有 的 研究 对 象 提出 了 新 的 方法 ， 
或 对 现 有 的 方法 进行 了 改进 ,或 者 利用 现 有 的 方法 解决 
启用 领域 中 存在 的 问题 。 结 论 创新 伴随 着 研究 问题 创 
狐 焉 论 创 新 和 方法 创新 , 指 在 以 上 创新 基础 上 ,获得 了 
二 司 有 成 果 不 同 的 结果 或 结论 。 具 体 见 图 2。 
“要 进行 上 述 内 容 的 创新 性 判断 ,必须 首先 对 目标 
学 永 论 文中 的 相关 知识 进行 识别 和 特征 抽取 ,并 与 现 
郁 当 术 论 文 知识 库 中 的 内 容 进行 对 比分 析 或 相似 计 
算 @ 以 判断 是 否 具有 创新 性 。 具 体 步骤 如 下 : 
-三 (1 ) 建 立 知 识 元 本 体 和 知识 元 描述 规则 库 和 术语 
库 6 描 述 反 映 创 新 性 4 个 维度 的 知识 元 的 抽取 规则 , 建 


研究 问题 创新 
学 术 论文 内 容 und 
创新 性 评价 
方法 创新 
结论 创新 


图 2 学 术 论文 内 容 创 新 性 评价 的 维度 


立 描 述 规 则 库 ; 对 规范 术语 进行 描述 ,建立 术语 库 。 

(2) 依 据 知识 元 描述 规则 ,对 一 定时 间 窗 口 的 已 
发 表 学 术 论 文 知识 库 进行 知识 元 抽取 ,建立 知识 元 本 
体 库 ,包括 研究 问题 知识 元 本 体 库 , 理 论 知识 元 本 体 
库 ,方法 知识 元 本 体 库 ,结论 知识 元 本 体 库 。 

(3) 建立 知识 元 图 谱 库 ( 即 知识 链接 网 络 ) 。 识 别 
一 定时 间 窗 口 的 学 术 论文 中 的 知识 元 ,并 建立 每 篇 学 
术 论 文 的 知识 元 图 谱 , 标 注 时 间 ,形成 知识 元 图 谱 库 。 

(4) 抽 取 目 标 学 术 论 文 的 知识 元 ,建立 目标 学 术 
论文 的 知识 元 图 谱 。 

(5) 计 算 目 标 学 术 论 文 知识 元 创新 性 ,获得 目标 
学 术 论 文 的 创新 指数 。 将 目标 学 术 论文 与 知识 元 本 体 
库 和 知识 元 图 谱 库 进行 匹配 和 相似 度 计算 ,获得 目标 
学 术 论 文 在 理论 方法 和 应 用 层面 的 创新 指数 。 

学 术 论 文 内 容 创新 性 评价 的 总 体 流 程 见 图 3。 首 
先 对 学 术 论 文 知识 元 进行 描述 ,建立 知识 元 抽取 规则 ， 
形成 学 术 论文 知识 元 抽取 规则 库 ,并 采用 规则 库 依 据 
知识 元 本 体 抽取 学 术 论 文中 的 知识 元 ,构建 学 术 论 文 
的 知识 元 本 体 , 与 目标 论文 中 抽取 的 知识 元 进行 相似 
度 计算 ,获得 创新 性 评价 结果 。 


Es > 学 术 论 文 EE Vg Ey 
$54 - 识 元 - 
规范 术语 库 构 建 ” 忆 Ns E cg E amna e 
ML -— — | "-— t 
论文 创新 性 评价 ERN 
基于 创新 性 评价 的  — 问 mon 
学 术 论文 知识 元 ”学术 论文 知识 元 理论 | 主题 | 方法 | 结论 
本 体 构建 创新 | 创新 | 创新 | 创新 pm 
ees cus ligas 评价 评价 评价 评价 
知识 元 抽取 一 一 目标 学 术 
awewe S awe | o 论文 知识 y) 论文 知识 
J 元 抽取 元 图 谱 
b t 


图 3 基于 知识 元 的 学 术 论文 创新 性 评价 模型 


4.1 学 术 论 文 知识 元 本 体 
学 术 论 文具 有 通用 的 元 数据 。 学 术 论 文 基本 元 数 
据 特 征 包括 篇 名 、 作 者 、 作 者 单位 、 摘 要、 关键 词 . 分 类 


号 .DOI 期刊 名 .发表 时 间 ,支持 基金 .主题 关键 词 被 
引文 献 等 内 容 。 其 中 ,题名 、 摘 要 关键 词 主题、 分 类 
号 被 引文 献 与 论文 的 正文 内 容 相 关 。 学 术 论 文正 文 
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FR, ET. 基于 知识 元 的 学 术 论 文 内 容 创 新 性 智能 化 评价 研究 [J]. 图 书 情报 工作 ,2020 ,64(1) :93 - 104. 


内 容 的 结构 也 类 似 ,以 《图 书 情报 工作 》 论 文 为 例 , 通 
常 包括 引言 .研究 现状 或 相关 研究 .理论 .方法 研究 或 
模型 构建 .实例 或 实验 .结论 .参考 文献 等 基本 结构 。 
这 些 基本 结构 构成 了 学 术 论 文 的 分 层 体系 和 各 自 的 功 
能 。 本 文 聚 焦 创新 性 评价 ,主要 通过 抽取 学 术 论文 的 
研究 问题 .理论 知识 点 方法 知识 点 及 结果 知识 点 等 代 
表 论 文 核心 内 容 的 知识 。 研 究 问题 属于 主题 领域 ,可 
从 学 术 论 文 的 题名 .关键 词 摘要 .引言 部 分 获得 ;理论 
知识 点 源 自学 术 论文 的 题名 .关键 词 摘要、 相关 理论 、 
理论 模型 构建 .结论 等 ;方法 知识 点 源 自学 术 论文 的 题 
名 关键 词 .摘要 .相关 理论 .方法 研究 .实例 或 实验 ; 结 
果 知 识 点 源 自学 术 论 文 的 摘要 ,实例 或 实验 ,结论 。 在 
上 述 分 析 基础 上 ,构建 基于 创新 性 评价 的 学 术 论文 的 
知识 元 描述 规则 和 知识 元 本 体 。 

4. 学 术 论文 知识 元 本 体 总 体 结构 

入- 本 文 在 对 知识 元 .本体 模型 分 析 的 基础 上 ,构建 知 
a om 
前 销 三 元 组 .四 元 组 五 元 组 、 六 元 组 模型 , 尚 缺 乏 统一 
的 标准 和 框架 ,本 文 考虑 采用 RDF 格式 存储 知识 元 本 
人 司 六 此 选择 三 元 组 模型 作为 知识 元 本 体 的 逻辑 描述 
E 
标 淮 数据 模型 ,采用 主语 - 谓语 - 宾语 的 语义 三 元 组 
JEobiaescin, essc oH. daa 


的 资源 ,谓语 是 属性 ,宾语 是 属性 值 。 基 于 以 上 分 析 ， 
本 文 构建 了 学 术 论 文本 体 .研究 问题 本 体 、 理 论 本 体 、 
方法 本 体 和 结论 本 体 ,各 本 体 之 间 的 关系 如 图 4 所 示 : 


ResearchProblem Article Method 
研究 问题 学 术 论文 方法 
X ZN 
Contains subClassof subClassof Contains 
ReviewArticle ResearchArticle n Theory 
述评 型 论文 研究 型 论文 “| 一 Contains 一 | 理论 
Contains Contains Gontaing 
KA " N 
Conclusion Conclusion RearchProblem 
结论 结论 研究 问题 


图 4 学 术 论文 本 体 关 系 结构 


4.1.2. 学 术 论文 知识 元 本 体 

学 术 论 文 属 性 主要 由 元 数据 构成 ,包括 篇 名 、 作 
者 .摘要 关键 词 .分 类 号 DO ,期刊 名 发表 时 间 支持 
基金 .主题 被 引文 献 等 。 学 术 文献 的 种 类 一 般 包含 书 
籍 .报告 ,会议 文 章 , 本 文 主要 针对 的 是 期 刊 论文 ,所 以 
并 未 以 此 建立 学 术 论 文 的 分 类 ,而 是 以 述评 型 论文 、 研 
究 型 论文 对 论文 进行 分 类 ,并 作为 学 术 论文 实体 的 子 
类 。 为 了 提高 本 体 的 共享 和 重用 ,本 文 构建 的 本 体 继 
承 了 doco 本 体 fabio 本 体 、deo 本 体 的 一 些 概念 。 具 体 
概念 层次 结构 如 图 5 所 示 : 
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x< SupportFound 基金 SupportFund 基金 
Title 题名 A Title 题名 
(5 À A ^ 
- ^ 
| | 
j= PublishTime 出 版 年 LONE j \ Tm A | PublishTime 出 版 年 
C isAttributeof Ati uteof isAttributeof — isAttributeof 
\ r / 
$ *; f 1 / 
© 摘要 ee \ | | | isAttributeof 
Abstract 要 \ / 1 / A Abstract 摘要 
N. N \ | Article 学 术 论 文 | hr / ; Pii 
isAttributeof | | | j isAttributeof 
bw N \ | > NC | oy i 
4 ig K V | d N L| 3 is 
Keywords tim] Se NA des 77 Qu) Keywords ét 
e. SNC NEU | > / — DE 
isAttributeof NI ANE. N | I ^ isAttributeof 
BENE P — 
Classification Esame Review Research isAttributeo3 Classification 
number 分 类 号 UAn | Article 述评 型 论文 Article 研究 型 论文 SEG number 分 类 号 
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isAttributeof rg Fa /| | NNKON, isAtitributeof 
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JournalTitle 期 刊 名 - / / | | Y Ni E JournalTitle 期 刊 名 
" d / | 1 X: | 
isAttributeof | A 2 
/ / ee isAttributeof N,isAttributeof 
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图 5 学 术 论 文 知识 元 本 体 层次 结构 
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4.1.3 学术 论 文 研究 问题 知识 元 本 体 

研究 问题 是 学 术 论 文 研究 的 基石 ,没有 研究 问题 ， 
学 术 研 究 就 失去 了 研究 的 意义 。 学 术 论 文中 研究 问题 
是 通过 研究 对 象 、 人 研究 背景 、 研 究 目的 研究 意义 体现 
的 。 学 术 论文 研究 问题 知识 元 本 体 层 次 模型 见 图 6。 
4.1.4 学 术 论 文理 论 知 识 元 本 体 

理论 创新 是 研究 创新 的 重要 部 分 ,包括 学 说 
的 创新 。 学 术 论文 中 理论 创新 的 内 容 主 要 通过 题名 特 
征 词 .主题 词 ,论文 中 包含 的 理论 观点 ,假设 模型 .框架 
模型 结论 来 体现 。 依 据 论 文 的 不 同 结构 ,将 学 术 理 论 
实体 分 为 理论 观点 、 假 设 模 型 和 框架 模型 。 根 据 以 上 
分 析 , 本 文 构建 学 术 论 文理 论 知识 元 本 体 层次 模型 ,如 
图 7 所 示 ,为 理论 创新 评价 的 数据 准备 提供 基础 。 
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图 7 ”学术 论文 理论 知识 元 本 体 层次 结构 


4.1.5 学 术 论 文 方法 知识 元 本 体 

学 术 论文 中 方法 的 使 用 比较 复杂 ,总 体 可 以 分 为 
科学 研究 方法 和 问题 解决 方法 。 科 学 研究 方法 主要 包 
括 调查 问卷 法 ,专家 访谈 法 ,案例 分 析 法 、 观 察 法 ,文献 
研究 法 实验 等 。 科 学 研究 方法 包括 算法 、 技 术 方 法 、 
评价 模型 数学 模型 等 。 由 于 不 同 的 方法 具有 不 同 的 


ER 


惊 性 ,因此 ,在 方法 实体 中 ,将 调查 问卷 法 、 专 家 访谈 
法 案例 分 析 法 ,观察 法 文献 研究 法 实验、 算法、 技术 
方法 评价 模型 数学 模型 等 都 作为 方法 的 子 类 ,构建 
了 学 术 方法 知识 元 本 体 层 次 结构 , 见 图 8。 

4.1.6 学 术 论 文 结论 知识 元 本 体 

论文 的 结论 是 论文 的 重要 构成 部 分 , 它 包 括 了 主 


要 的 结论 性 、 观 点 性 、 创 新 性 知识 。 结 论 的 核心 要 素 主 
要 有 对 策 、 建 议 、 启 示 、 人 研究 价值 优势、 创新 点 等 内 容 。 
以 此 构建 学 术 论 文 结论 知识 元 本 体 层次 结构 见 图 9。 
4.2 ”学术 论文 知识 元 抽取 
4.2.1 知识 元 抽取 规则 

通过 分 析 学 术 知 识 元 抽取 需求 ,剖析 学 术 论 文 特 
点 ,设计 知识 元 抽取 方案 。 学 术 论 文 的 题名 .关键 词 、 
摘要 是 重点 抽取 对 象 ,其 次 ,学 术 论 文正 文具 有 类 似 的 
内 容 结构 ,通常 由 引言 .相关 理论 、 研 究 方法 /内 容 、 实 
验 / 案 例 结论 等 组 成 ,可 依据 知识 元 内 容 酌 情 进 行 抽 
取 。 为 了 抽取 过 程 顺利 , 需 制定 一 些 约束 条 件 :首先 ， 
提取 过 程 中 不 区 分 英文 大 小 写 ;其 次 ,在 正则 表达 式 设 
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X 


E 
RRT fe HURODGE Ae LE. TETRAN, 
IEAI TAE, 30 IB UGUE ,换行 符 等 
不 需要 的 字符 。 学 术 论文 文本 内 容 具 有 很 强 的 规则 
性 ,尤其 摘要 部 分 ,在 基于 规则 的 知识 元 识别 过 程 中 结 
合 规范 术语 库 的 数据 ,最 后 获得 论文 的 知识 元 。 

(1) 学 术 论 文 研究 问题 知识 元 抽取 。 识 别 与 抽取 目 
标 文本 :(D 篇 名 与 关键 词 :对 篇 名 进行 主题 识别 ,与 关键 
词 匹配 ,确定 研究 对 象 和 研究 内 容 。@ 摘 要 中 研究 目的 、 
研究 意义 应 用 /实践 意义 。@ 引 言 中 本 文 的 研究 内 容 。 

学 术 论文 研究 问题 知识 元 抽取 规则 (部 分 ) 如 下 : 

题名 抽取 

关键 词 抽取 

研究 /分 析 (. * 2) 领域 的 (. *?) 的 (. *?) 问 题 

面向 /针对 (. *?) 领 域 ,研究 (. * 2) 问题; 

基于 (. 2) ,研究 (. *?) ,解决 (. *?) 问 题 ，; 

提出 /阐述 (. * ?) 解 决 方案 /问题 /方法 

探讨 /分 析 (. * 2) 影响 要 素 / 因素 


图 9 学 术 论 文 结论 知识 元 本 体 层次 结构 


建立 (. *?) 流 程 /体系 /程序 

对 (. * ?) 进 行 研究 /评估 /可 行 性 分 析 

(2) 学 术 论 文理 论 知识 元 抽取 。 识 别 与 抽取 目标 
文本 :中 摘要 中 提 及 的 运用 理论 说 明 。@ 引 言及 文献 
综述 中 理论 不 足 的 相关 论述 。@ 相 关 理 论 基础 部 分 中 
的 相关 理论 陈述 。@ 结 论 中 提 及 的 理论 贡献 。 

学 术 论 文理 论 知识 元 抽取 规则 ( 部分) 如下: 

提出 (. *?) 理 论 / 假 设 /框架 /模型 

对 (. *?) 理 论 进行 了 改进 /改善 /完善 

具有 (. *?) 理 论 意义 

对 (. *?) 理 论 进行 述评 /分 析 / 评 价 

运用 /借鉴 (. * ?) 理 论 

(3) 学 术 论 文 方法 知识 元 抽取 。 识 别 与 抽取 目标 
文本 :摘要 中 提 及 的 运用 方法 说 明 。@) 引 言及 文献 
综述 中 方法 不 足 相 关 论 述 。 名 实验 部 分 中 的 方法 。 包 
结论 中 提 及 的 方法 。 

学 术 论 文 方法 知识 元 抽取 规则 ( 部分) 如下: 

提出 (.*?) 方 法 /流程 /算法 /程序 /过 程 
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对 (. *?) 方 法 进行 了 改进 /发 展 / 完 善 

对 (. *?) 算 法 进行 了 改进 /发 展 / 完 善 

对 (. *?) 流 程 进行 了 改进 /发 展 / 完 善 

对 (. * ?) 过 程 进行 了 改进 /发 展 / 完 善 

对 (.*?) 方 法 进行 述评 /分 析 / 评 价 

运用 /借鉴 (. * ?) 方 法 

如 调查 问卷 的 数量 (. * ?) 

间 卷 的 信 度 / 效 度 (. * ?) 

查 准 率 / 查 全 率 / 召 回 率 (. *?) 

(4) 学 术 论文 结论 知识 元 抽取 。 识 别 与 抽取 目标 
文本 :四 摘要 中 提 及 的 结果 结论 。@ 引 言及 文献 综述 
中 研究 目的 。 包 实验 部 分 中 的 结果 。 外 结论 。 

学 术 论 文 研 究 结 论 知 识 元 抽取 规则 (部 分 ) 如 下 : 

RAT *?); 
EEC * ?) 结论 ;: (1)(. 2,0) C *?),(N) 
(Na?) 

GO 对 (. * ?) 进 行 了 验证 /改进 /改善 


加 验证 了 /证 明 (. * ?) 可 行 性 /有 效 性 /是 可 行 的 / 
是 有 效 的 

〇 正确 率 达 (. 7) 

CO 研究 发 现 (. =?) 

加 结果 表明 (. * ?) 

CN 


测试 集 


a 
好 


不 好 


4.2.2 基于 机 器 学 习 的 理论 与 方法 分 类 模型 

(1) 理 论 与 方法 分 类 模型 构建 。 创 新 性 判断 是 对 
知识 元 的 创新 性 进行 判断 的 过 程 。 基 于 机 器 学 习 的 理 
论 与 方法 分 类 就 是 让 计算 机 自动 发 现 且 充分 理解 训练 
集 (发 表 论 文 知 识 元 ) 的 基本 规则 和 语义 ,并 以 计算 机 
可 识别 的 方式 表示 ,进而 作为 未 知 文本 的 判断 依据 的 
过 程 , 即 计算 机 自动 分 类 的 过 程 。 近 年 来 ,基于 机 器 学 
习 的 方法 进行 文本 的 分 类 研究 很 多 ,尤其 是 在 情感 分 
类 研究 方面 。 如 杜 慧 等 ” 利用 萤 含 上 下 文 语义 信息 
的 词 向 量 构建 文本 的 特征 表示 ,进而 用 机 器 学 习 的 方 
法 对 语 料 进 行情 感 分 类 ;李惠 富 等 ”将 主 成 分 分 析 、 
潜在 语义 分 析 、Word2Vec 以 及 TF-IDF 特征 提取 方法 
作为 多 类 型 分 类 器 融合 的 特征 提取 方法 ,该 方法 在 各 
类 型 语料库 中 都 有 很 好 的 表现 。 

本 文 在 对 多 种 机 器 学 习 算 法 的 应 用 进行 考察 和 思 
考 后 最 终 选 择 了 朴素 贝 叶 斯 (Naive Bayes) 模型 。 朴 素 
贝 叶 斯 分 类 器 是 机 器 学 习 常 用 的 方法 之 一 ,是 一 种 有 
监督 的 学 习 算法 ,其 分 类 和 鲁 棒 性 好 ,速度 快 ,尤其 适合 
大 数据 处 理 , 近 几 年 常 被 用 做 文本 分 类 领域 。 
基于 贝 叶 斯 的 理论 方法 分 类 模型 如 图 10 所 示 : 


$ 


类 效果 检验 


参数 设置 
构造 特征 工程 > 机 器 学 习 
规则 学 习 


图 10 基于 朴素 贝 叶 斯 的 理论 与 方法 分 类 模型 


(2) 理论 与 方法 量化 。 作 者 在 学 术 论 文中 对 其 
理论 方法 的 表述 有 一 定 的 规则 ,基本 表现 为 对 这 两 
个 方面 的 描述 。 通 过 对 大 量 的 学 术 论文 分 析 发 现 ， 
这 种 描述 的 结构 可 归纳 为 "动词 + 特征 词 + 副词 "或 
“动词 + 特征 词 ” 。 例 如 在 关于 研究 方法 的 论述 中 ， 
常用 “基于 * * * ,提出 了 一 种 * * * 方 法 。”“ 对 * 
* # 方 法 进行 了 改进 ”。 因 此 评价 指标 量化 就 是 以 
论述 中 的 * * * 作为 特征 词 ,并 以 其 为 轴 心 ,定位 特 
征 词 前 后 [ -u,uj 的 区 间 ,结合 语料库 对 区 间 内 的 动 
词 或 副词 进行 赋值 ,部 分 赋值 (5 分 法 ) 情 况 见 表 1。 


4.2.3 规则 库 构 建 

基于 规则 的 知识 元 抽取 方法 是 通过 规则 与 文本 内 
容 进 行 匹配 ,从 而 抽取 所 需要 的 内 容 。 基 于 规则 的 信 
息 抽取 方法 是 一 种 确定 的 信息 抽取 方法 ,通常 通过 正 
则 表达 式 实现 ,优点 是 准确 率 高 ,缺点 是 缺乏 灵活 性 。 
本 文通 过 对 论文 内 容 进行 分 析 , 构 建 抽取 规则 库 。 具 
体 构建 过 程 见 图 11。 
主要 包括 :中 依据 学 术 论 文 知 识 元 本 体 的 实体 、 分 
类 及 属性 ,对 论文 内 容 梳 理 和 分 析 ,筛选 包含 所 需 信息 
内 容 的 完整 句子 ,构成 初 选集 ; @ 利 用 SVM 模型 对 初 
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表 1 理论 ,方法 赋值 表 ( 部 分 ) 
理论 赋值 方法 赋值 
首次 提出 (. * ?) 理 论 
提出 (. * ?) 理论 
对 (. * ?) 理论 进行 了 改进 
对 (. * D 理论 进行 了 优化 
对 (. * ?) 理论 进行 了 改善 


5 
4 
3 
3 
3 
对 (. = ?) 理 论 进行 了 完善 3 
2 
2 
2 
2 
1 
1 


提出 
提出 
提出 (. * ?) 算 法 


n 
A 


Ox 1)Jf 


8 2) FE 


ini 


5 
A 


ni 


ni 


提出 


Zz 
A 


. *?) 程 序 


ni 


4 
4 

4 

4 
提出 (. * ?) 过 程 4 
. * 了) 方法 进行 了 改进 3 
. * 了?) 方法 进行 了 发 展 3 
< *?) 算 法 进行 了 改进 3 
3 

3 

3 

2 

2 

2 

1 

1 


RAC * ?) 理 论 意义 
对 (. * D 理论 进行 述评 
XC * ?) 理论 进行 分 析 
XC. * D 理论 进行 评价 
运用 (. * ?) 理论 


借鉴 (. * ?) 理论 


< *?) 过 程 进行 了 改进 
< *?) 方 法 进行 了 完善 


对 (. * ?) 方 法 进行 述评 


( 
( 
FC s T) 流程 进行 了 改进 
( 
( 


y= 对 (. * ?) 方 法 进行 分 析 
ó 对 (. * 7) 方 法 进行 评价 
~ 运用 (. * ?) 方 法 
e 借鉴 (. * ?) 方 法 
je) 
Bcc. | Lame 

m PEN, z "e | 归纳 总 结 Ey mE 规则 库 
eo i LJ 
CN 11 规则 库 构建 过 程 


选 筑 中 的 句子 进行 分 类 ,形成 规则 语 料 集 ;@@ 对 规则 语 
焰 亩 中 的 句子 进行 分 词 和 词性 标注 ,分 析 句 子 的 结构 ， 
pic m 构建 一 种 irure pimp" * "m 提出 了 一 种 
“方法”,“…… 构 建 一 个 …… 框 架 ” ,判定 知识 元 本 
人 和 并 ,并 将 这 些 句子 结构 进行 归纳 总 结 , 形 成 候选 规 
则 集 ;@ 在 候选 规则 集 的 基础 上 ,构建 规则 ,采用 正则 
表达 式 表达 规则 ,并 通过 不 断 的 信息 抽取 实验 对 规则 
进行 优化 和 完善 ,构建 稳定 的 规则 模板 ,最 终 得 到 规 
则 库 。 

在 知识 元 抽取 过 程 中 ,因为 方法 、 理 论 等 具体 实 
例 存在 一 些 不 规范 的 名 称 ,为 了 保证 实体 命名 的 一 
致 性 ,根据 领域 知识 术语 库 匹 配 抽 取 内 容 , 构 建 了 规 
范 术语 语料库 ,以 保障 理论 和 方法 识别 的 准确 性 。 
规范 语料库 的 构建 主要 依据 中 国 知 网 和 全 国 科 学 技 
术 名 词 审 定 委员 会 合作 项 目 ( 中 国 规范 术语 库 》、 中 
国 知 网 《方法 库 》, 在 此 基础 上 ,补充 学 术 论文 中 的 不 
规范 实体 名 称 ,形成 统一 的 方法 、 理 论 命名 实体 语 
料 库 。 
4.3 ”学 术 论 文 创新 性 智能 化 评价 过 程 

在 学 术 论文 知识 元 库 构建 的 基础 上 ,通过 抽取 论 


文 知识 元 (经 过 训练 后 ) 与 现 有 的 学 术 论 文 知 识 元 比 
较 , 获 取 论 文 创新 性 评价 的 基本 数据 ,提出 论文 研究 问 
题 创 新 性 、 理 论 创 新 性 方法 创新 性 、 结 论 创 新 性 评价 
的 基本 方法 。 

具体 步骤 如 下 : 

第 一 步 : 学 术 论 文 知 识 元 抽取 。 首 先 对 文本 进行 
预 处 理 , 滤 除 不 需要 的 字符 ;在 基于 规则 的 知识 元 识别 
过 程 中 结合 规范 术语 库 的 数据 ,最 后 获得 学 术 论 文 知 
识 元 。 

第 二 步 :进行 数值 比较 。 学 术 论 文 知 识 元 包含 数 
值 和 文本 。 数 值 知 识 元 主要 包含 方法 知识 元 ,如 调查 
问卷 的 数量 .问卷 的 信和 度 和 效 度 等 ,主要 涉及 到 论文 的 
科学 性 问题 ;结论 知识 元 ,如 查 准 率 、 查 全 率 ,涉及 到 论 
文 结论 的 创新 性 评价 。 本 文 主要 是 对 论文 创新 性 的 评 
价 , 因 此 ,选取 结论 数值 ,根据 其 具体 定义 ,比较 大 小 ， 
确定 论文 结论 的 创新 性 。 

第 三 步 :文本 相似 度 计算 。 知 识 元 的 类 型 是 文本 
时 ,需要 判断 文本 的 相似 度 ,本 文 主要 采用 词 向 量 的 方 
法 。Word2vec 是 产生 词 向 量 的 模型 ,使 用 该 模型 将 使 
每 个 词语 都 获得 一 个 相对 应 的 词 向 量 , 通 过 计算 词 向 
量 的 余弦 值 获得 两 个 词 的 相似 度 值 。 引 入 词 向 量 之 
后 ,可 以 识别 两 个 字 型 不 同 但 是 相关 或 疑似 相近 的 词 
语 ,能 够 弥补 传统 文本 相似 度 算 法 的 不 足 。 本 文采 用 
中 文 维基 百科 语 料 训练 词 向 量 。 

第 四 步 :目标 学 术 论 文 创新 性 评价 。 

本 文 将 依据 文本 相似 度 和 数值 比较 结果 计算 论文 
创新 性 结果 。 首 先 ,计算 研究 问题 创新 评价 结果 ;其 
次 ,对 理论 创新 进行 评价 ;再 次 ,评价 方法 创新 ;最 后 ， 
对 结论 创新 成 果 进行 评价 。 

构建 的 学 术 论文 创新 性 智能 化 评价 过 程 见 图 12。 
4.4 学 术 论 文 创新 性 智能 化 评价 实证 检验 

基于 上 述 研 究 过 程 ,本 文 利用 python 语言 ,采用 
python 中 的 NLP 工具 包 , 结 合 python 中 的 Flask 框架 ， 
对 学 术 论文 创新 性 4 个 维度 智能 化 评价 进行 实证 检 
4.4.1 数据 集 获 取 

实验 数据 集 主要 以 《图 书 情报 工作 》2015 - 2018 
年 4 年 的 投稿 论文 和 部 分 图 书馆 学 情报 学 核心 期 刊 
2015 - 2017 年 已 发 表 的 学 术 论文 数据 组 成 ( 约 6 FR 
条 数据 ) 。 考 虑 到 实验 的 便捷 性 ,本 次 实验 仅 获取 论文 
题名 .中 文摘 要 和 关键 词 。 部 分 摘要 直接 录入 为 结构 
化 摘要 ,如 将 摘要 分 为 [目的 /意义 ] 、[ 过 程 /方法 ]、 
[结果 /结论 ] ,以 提升 计算 机 识别 的 有 效 性 
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4 实验 模块 组 成 及 功能 
人 〇 实验 模块 由 数据 集 管理 模块 ,抽取 规则 管理 模块 、 
颌 各 性 评价 模块 ,数据 集训 练 异 块 ,论文 综合 评分 模块 
构成 。 

ON 数据 集 管理 模块 :该 模块 主要 对 数据 库 中 的 数据 
集 进 行 维护 。 在 这 里 主要 指 已 发 表 的 学 术 论文 知识 
BK 

全 抽取 规则 管理 模块 :该 模块 主要 是 对 理论 维度 和 
方 溪 维度 的 评分 规则 进行 设置 ,基于 设置 的 规则 计算 
这 两 个 维度 的 评分 分 数 。 

创新 性 评价 模块 :该 模块 主要 是 基于 系统 中 的 数 
据 集 ,结合 系统 设置 的 抽取 规则 ,从 4 个 维度 得 出 创新 
性 综合 评分 。 

数据 集训 练 模块 :数据 集训 练 主要 采用 机 器 学 习 
的 方法 ,结合 创新 性 评价 指标 ,构建 训练 模型 ,对 数据 
集 进行 评分 。 

论文 综合 评分 模 抉 :对 系统 中 已 发 表 的 论文 和 新 
提交 的 论文 ,结合 数据 集训 练 的 模型 ,对 学 术 论文 的 创 
新 性 进行 综合 评分 。 然 后 以 该 综合 评分 为 依据 ,通过 
机 器 学 习 对 该 学 术 论 文 是 否 发 表 进 行 评价 。 

目前 ,各 实验 模块 可 以 完成 的 功能 有 :中 基础 数据 
集 的 管理 与 维护 ,可 以 对 基础 数据 进行 添加 、 修 改 . 删 
除 管理 。@ 自 定义 评分 规则 ,包括 评分 规则 描述 .评分 
的 分 数 .评分 的 优先 级 。 国 可 以 根据 自 定义 的 评分 规 
则 ,基于 正则 表达 式 匹配 的 方式 ,对 理论 维度 和 方法 维 
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图 12 学 术 论 文 创新 性 智能 化 评价 过 程 


度 进 行 评分 ,并 显示 匹配 的 评分 规则 。 四 根据 语义 相 
似 度 计算 ,可 单独 计算 出 研究 问题 维度 与 结论 维度 的 
创新 性 评分 。@ 研 究 问题 维度 与 结论 维度 的 创新 性 评 
分 可 以 针对 不 同年 份 的 数据 集 进 行 ,可 以 显示 出 与 之 
对 应 的 语义 相似 度 的 值 ,以 及 实验 数据 的 分 析 与 实验 
结果 。(@) 结 合 4 个 维度 及 系数 ,可 以 计算 出 论文 的 综 
合 评分 。Q(D 结 合 论 文 创新 性 评分 ,程序 将 生成 论文 的 
创新 性 分 布 ,根据 设 定 的 阐 值 给 出 采纳 或 不 采纳 的 评 
价 结果 。 
4.4.3 部 分 实验 结果 及 分 析 

随机 选取 2016 .2017 2018 年 发 表 在 《图 书 情报 工 
作 》 的 论文 (目前 库 中 所 拥有 的 论文 为 2015 -2018 4E) 
和 发 表 在 其 他 期 刊 的 论文 进行 创新 性 评分 计算 ,部 分 
评分 结果 见 表 2。 

从 表 2 的 部 分 随机 结果 来 看 ,多 数论 文 的 创新 性 
随 着 计算 年 的 增加 而 变 小 ,这 符合 创新 性 扩散 的 一 般 
规律 。 随 着 数据 量 加 大 、 学 习 与 训练 次 数 增多 ,创新 性 
维度 的 判断 将 更 加 精确 。 
4.5 结论 

创新 性 是 学 术 论 文 是 否 录用 的 重要 标准 ,发 现 论 
文 在 论点 ( 即 研究 问题 ) 理论 .论据 /数据 方法 、 结 
论 .价值 等 方面 的 重要 创新 点 或 重要 贡献 是 判断 学 术 
论文 内 容 是 否 具备 创新 性 的 依据 。 本 文 以 知识 元 研究 
为 基础 ,在 学 术 论 文 内 容 分 析 的 基础 上 ,构建 了 反映 学 
术 论 文 内 容 创 新 性 的 4 个 维度 的 学 术 论文 知识 元 本 体 
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R2 随机 判断 的 部 分 论文 的 得 分 情况 
论文 来 源 对 比 年 

人 是 否 数据 库 中 论文 — 2015 2015-2016 2015 -2017 
1 2016 是 1.448 1.210 - 
2 2016 是 1.694 0 - 
3 2016 是 1.686 1.686 = 
4 2016 是 1.448 1.204 - 
5 — 2017 是 1.448 1.211 1.211 
6 — 2017 是 1.694 1.694 1.694 
7 — 2017 是 1.694 1.694 1.694 
8 2017 是 1.448 1.448 0.49 
9 2018 是 1.694 1.204 1.204 
10 — 2018 是 1.448 1.204 0.966 
11 — 2018 是 1.932 1.932 1.686 
P= 2018 是 1.694 1.448 1.448 
1 2018 是 0.966 0.483 0. 483 
mM- 2018 B, RREH 1.448 1.448 1.448 
45) 2018 否 ,发 表 在 他 刊 1.694 1.448 1.448 
i 2018 否 ,发 表 在 他 刊 1.448 1.210 0.973 
17 = 2018 否 ,发 表 在 他 刊 1.694 1.210 1.210 
动 2018 否 , 发 表 在 他 刊 1.932 1.694 1.694 
€ 


O ————— — 
模型 ,确定 了 4 个 维度 的 知识 元 抽取 规则 , 利用 


VaxD Vec 和 朴素 贝 叶 斯 方法 对 学 术 论 文理 论 与 方法 
的 面 新 性 进行 分 类 ,并 采用 SVM 模型 构建 知识 元 抽取 
规 霜 库 。 在 学 术 论 文 知 识 元 库 构 建 基础 上 ,提出 学 术 
论 必 研究 问题 创新 性 .理论 创新 性 .方法 创新 性 .结论 
创新 性 智能 化 评价 的 基本 方法 ,构建 学 术 论文 创新 性 
SIC SERI. 

最 后 ,本 文 以 (图 书 情报 工作 》2015 - 2017 年 发 表 
的 学 术 论 文 为 实验 数据 库 ,依照 抽取 规则 对 这 些 学 术 
论文 的 知识 元 进行 抽取 ,对 理论 与 方法 的 知识 元 进行 
机 器 学 习 分 类 ,使 得 理论 与 方法 知识 元 成 为 自 带 权重 
的 知识 元 类 别 。 对 抽取 的 4 个 维度 知识 元 进行 进一步 
词 向 量 训练 ,建立 语料库 。 以 2018 、2017 ,2016 年 的 学 
术 论文 为 试验 数据 ,对 其 创新 性 进行 识别 与 判断 ,最 后 
的 评分 结果 具有 一 定 的 可 行 性 ,基本 上 反映 了 论文 创 
新 扩散 的 过 程 , 即 创新 性 递减 的 过 程 。 

通过 对 评分 结果 的 进一步 分 析 , 发 现 评分 系统 在 
评分 过 程 中 存在 一 些 问题 ,如 由 于 理论 与 方法 的 规则 
设置 较为 严格 ,部 分 论文 的 方法 创新 性 得 分 为 0, 需 要 
进一步 调整 计算 的 方法 。 在 研究 结论 的 创新 性 计算 方 
面 ,也 需要 做 进一步 调整 ,结果 结论 元 数据 抽取 规则 也 
需要 进一步 完善 ,以 便 获得 更 好 的 结果 。 
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Abstract; | Purpose/significance | Innovation is the key factor of academic paper evaluation. Based on the 
CKnowledge element theory and machine learning theory and algorithm, this paper studies how to intelligently evaluate 
innovation of academic papers from the content of paper. | Method/process | Firstly, we constructed 4 knowl- 
《ge element ontologies of academic papers including * research problem ontology’ , * theory ontology’ , * method on- 
logy’ and ‘conclusion ontology’ , and proposed the model of innovation evaluation. Secondly, we put forward the 
iles of knowledge element extraction. Word2vec and naive Bayes were used to classify the innovation of theories and 
Sféthods of academic papers, and SVM model was used to build the rule base of knowledge element extraction. At 
t, on the basis of the construction of knowledge Meta base of academic papers, we proposed the basic methods of 
*3mtelligent evaluation of research questions, theories, methods and conclusions of academic papers. We also construc- 
the process of intelligent evaluation of innovation of academic papers. | Result/conclusion | The feasibility of the 
methods is verified by the experiment and could provide the references for the realization of intelligently evaluation of 
academic paper. 
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